Telegram Group »
Viet Nam »
Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение » Telegram Webview
🆕 Свежие новости из мира AI и Data Science
🔥 Модели, релизы и технологии:
— Alibaba выпустила Qwen3 — восемь моделей с гибридным мышлением и агентными возможностями, сопоставимыми с OpenAI и xAI
— Amazon представила Nova Premier — продвинутую AI-модель, способную обучать другие
— Model2Vec — делает sentence transformers в 50 раз меньше и в 500 раз быстрее
— Google NotebookLM теперь говорит на 50+ языках — поддержка многоязычного аудио и чата
— Apache Airflow 3.0 — крупнейшее обновление популярного оркестратора
🧠 Статьи, исследования и лучшие практики:
— Backpropagation Through Time: разбор с выводами — глубокое погружение в обучение RNN
— Геометрия ландшафта потерь и «понимание» модели — визуализация и интерпретация обучения
— MLflow для исследований — как систематизировать ML-эксперименты
— Как Яндекс обучал Алису «видеть» — мультимодальный подход в реальном кейсе
— Бинарная классификация одним нейроном — личный опыт и минимализм в ML
🗣 Мнения и индустрия:
— У GPT-4o проблема с личностью — OpenAI работает над излишней лестью и согласием модели
— Китай готовит альтернативу NVIDIA — Huawei тестирует AI-чип Ascend 910D
— 30% кода Microsoft пишется ИИ — Satya Nadella рассказал о роли Copilot в разработке
— Марк Цукерберг о Llama 4 и стратегии AGI — интервью о масштабировании AI-инфраструктуры
📚 Библиотека дата-сайентиста #свежак
🔥 Модели, релизы и технологии:
— Alibaba выпустила Qwen3 — восемь моделей с гибридным мышлением и агентными возможностями, сопоставимыми с OpenAI и xAI
— Amazon представила Nova Premier — продвинутую AI-модель, способную обучать другие
— Model2Vec — делает sentence transformers в 50 раз меньше и в 500 раз быстрее
— Google NotebookLM теперь говорит на 50+ языках — поддержка многоязычного аудио и чата
— Apache Airflow 3.0 — крупнейшее обновление популярного оркестратора
🧠 Статьи, исследования и лучшие практики:
— Backpropagation Through Time: разбор с выводами — глубокое погружение в обучение RNN
— Геометрия ландшафта потерь и «понимание» модели — визуализация и интерпретация обучения
— MLflow для исследований — как систематизировать ML-эксперименты
— Как Яндекс обучал Алису «видеть» — мультимодальный подход в реальном кейсе
— Бинарная классификация одним нейроном — личный опыт и минимализм в ML
🗣 Мнения и индустрия:
— У GPT-4o проблема с личностью — OpenAI работает над излишней лестью и согласием модели
— Китай готовит альтернативу NVIDIA — Huawei тестирует AI-чип Ascend 910D
— 30% кода Microsoft пишется ИИ — Satya Nadella рассказал о роли Copilot в разработке
— Марк Цукерберг о Llama 4 и стратегии AGI — интервью о масштабировании AI-инфраструктуры
📚 Библиотека дата-сайентиста #свежак
🔥 Конкурс: 30 000 ₽ за самую смешную IT-новость
Напоминаем о конкурсе «Библиотеки программиста»: напишите самую смешную версию реальной новости про технологии.
👾 Правила просты:
1. Берете настоящую новость из мира технологий.
2. Переписываете ее так, чтобы смеялись все.
3. Получаете деньги и славу.
🎁 Призы:
- 1 место: 30 000 ₽ + статус ведущего нового юмористического IT-канала
- 2 и 3 место: по 5 000 ₽ + вечный почет в IT-сообществе
🏆 Как будем оценивать:
Мы выложим новости всех участников в одном из наших телеграм-каналов. Те новости, которые наберут больше всего охвата, войдут в шорт-лист. Из шорт-листа подписчики и жюри выберут победителя.
📅 Сроки: прием новостей до 11 мая включительно
Для участия отправьте свою смешную новость в гугл-форму: https://forms.gle/6YShjgfiycfJ53LX8
Осталась неделя — ждем ваших новостей!
Напоминаем о конкурсе «Библиотеки программиста»: напишите самую смешную версию реальной новости про технологии.
👾 Правила просты:
1. Берете настоящую новость из мира технологий.
2. Переписываете ее так, чтобы смеялись все.
3. Получаете деньги и славу.
🎁 Призы:
- 1 место: 30 000 ₽ + статус ведущего нового юмористического IT-канала
- 2 и 3 место: по 5 000 ₽ + вечный почет в IT-сообществе
🏆 Как будем оценивать:
Мы выложим новости всех участников в одном из наших телеграм-каналов. Те новости, которые наберут больше всего охвата, войдут в шорт-лист. Из шорт-листа подписчики и жюри выберут победителя.
📅 Сроки: прием новостей до 11 мая включительно
Для участия отправьте свою смешную новость в гугл-форму: https://forms.gle/6YShjgfiycfJ53LX8
Осталась неделя — ждем ваших новостей!
Google Docs
Конкурс на самую смешную IT-новость
Библиотека программиста запускает конкурс, который взорвет вашу ленту: создайте самую смешную альтернативную версию реальной IT-новости!
Правила просты:
1. Берете настоящую новость из мира технологий.
2. Переворачиваете её с ног на голову, чтобы смеялись…
Правила просты:
1. Берете настоящую новость из мира технологий.
2. Переворачиваете её с ног на голову, чтобы смеялись…
Бизнес-/продуктовый аналитик в B2B-маркетплейс — от 100 000 до 180 000 ₽ net, удаленка, предпочтительная география: Урал, Поволжье и около
Продуктовый аналитик на проект Piece of Cake
AI Engineer (инженер по ИИ) data science (дата-сайентист) — от 100 000 до 200 000 ₽, гибрид (Москва)
Data Scientist в Сетку, гибрид (Москва)
BI Analytics Team Lead — от 6 600 до 7 500 €, гибрид (Кипр, Казахстан, Грузия, Сербия, ОАЭ)
Senior Data Scientist (RL), удалёнка (Москва)
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
🔍 How to: выбрать важные признаки и избежать переобучения
Выбор признаков и регуляризация — ключевые методы для повышения эффективности модели и предотвращения переобучения. Вот как это можно реализовать:
1️⃣ Использование Recursive Feature Elimination (RFE)
Метод RFE помогает выбрать наиболее значимые признаки, исключая менее важные:
2️⃣ L1-регуляризация (Lasso)
L1-регуляризация помогает «занулять» незначительные признаки, что эффективно для отбора:
📌 Рекомендация: подбирайте оптимальное значение alpha с использованием кросс-валидации, например, через
3️⃣ Random Forest для выбора признаков
Алгоритм Random Forest вычисляет важность признаков, что позволяет отбирать наиболее значимые:
4️⃣ Регуляризация с Ridge (L2-регуляризация)
L2-регуляризация помогает уменьшить влияние менее значимых признаков, но не исключает их полностью:
5️⃣ Анализ важности признаков с помощью деревьев решений
Если вы используете алгоритмы на основе деревьев решений, важно учитывать их внутреннюю важность признаков:
📌 Рекомендация: рассмотрите возможность комбинированного использования методов Lasso и RFE для более агрессивного отбора признаков, что может быть полезно, если ваш набор данных содержит множество признаков.
Библиотека дата-сайентиста #буст
Выбор признаков и регуляризация — ключевые методы для повышения эффективности модели и предотвращения переобучения. Вот как это можно реализовать:
Метод RFE помогает выбрать наиболее значимые признаки, исключая менее важные:
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
rfe = RFE(model, n_features_to_select=5)
X_rfe = rfe.fit_transform(X, y)
L1-регуляризация помогает «занулять» незначительные признаки, что эффективно для отбора:
from sklearn.linear_model import Lasso
model = Lasso(alpha=0.1)
model.fit(X, y)
📌 Рекомендация: подбирайте оптимальное значение alpha с использованием кросс-валидации, например, через
GridSearchCV
.Алгоритм Random Forest вычисляет важность признаков, что позволяет отбирать наиболее значимые:
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()
model.fit(X, y)
importances = model.feature_importances_
L2-регуляризация помогает уменьшить влияние менее значимых признаков, но не исключает их полностью:
from sklearn.linear_model import Ridge
model = Ridge(alpha=0.1)
model.fit(X, y)
Если вы используете алгоритмы на основе деревьев решений, важно учитывать их внутреннюю важность признаков:
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier()
model.fit(X, y)
importances = model.feature_importances_
📌 Рекомендация: рассмотрите возможность комбинированного использования методов Lasso и RFE для более агрессивного отбора признаков, что может быть полезно, если ваш набор данных содержит множество признаков.
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
📌 Какой вектор лучше: Dense vs Multi-vector embeddings
Раньше хватало одного эмбеддинга на документ. Сейчас — этого уже мало. Нужна структура.
📍 Dense-векторы (single vector per doc):
— быстрые
— экономные по памяти
— слабо улавливают контекст
— «плавают» при сложных запросах
👉 подходят для простого поиска
📍 Multi-vector (late interaction):
— вектор на каждый токен
— сравниваются токены запроса и документа напрямую
— лучше качество на сложных задачах
— выше требования к хранилищу
👉 баланс между скоростью и точностью
📍 Late interaction ≈ золотая середина:
— быстрее, чем cross-encoders
— точнее, чем dense-векторы
📍 Примеры моделей:
— ColBERT — для текстов
— ColPali — multimodal: текст + PDF как картинки
— ColQwen — как ColPali, но на Qwen2 (Apache 2.0, компактнее)
Если вы работаете с PDF-документами (таблицы, графики, изображения) — мультивекторные модели решают большинство проблем без «чaнкинга» и костылей.
Библиотека дата-сайентиста #буст
Раньше хватало одного эмбеддинга на документ. Сейчас — этого уже мало. Нужна структура.
— быстрые
— экономные по памяти
— слабо улавливают контекст
— «плавают» при сложных запросах
👉 подходят для простого поиска
— вектор на каждый токен
— сравниваются токены запроса и документа напрямую
— лучше качество на сложных задачах
— выше требования к хранилищу
👉 баланс между скоростью и точностью
— быстрее, чем cross-encoders
— точнее, чем dense-векторы
— ColBERT — для текстов
— ColPali — multimodal: текст + PDF как картинки
— ColQwen — как ColPali, но на Qwen2 (Apache 2.0, компактнее)
Если вы работаете с PDF-документами (таблицы, графики, изображения) — мультивекторные модели решают большинство проблем без «чaнкинга» и костылей.
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
Сегодня делимся полезной фишкой из библиотеки pandas — метод
.pipe()
для создания чистых и читаемых цепочек обработки данных.import pandas as pd
# Пример: очистка и преобразование данных в одну цепочку
def clean_data(df):
return df.dropna().reset_index(drop=True)
def add_age_group(df):
df['age_group'] = pd.cut(df['age'], bins=[0, 18, 35, 60, 100], labels=['Kid', 'Young', 'Adult', 'Senior'])
return df
# Используем pipe для последовательной обработки
df = (pd.read_csv('data.csv')
.pipe(clean_data)
.pipe(add_age_group))
Зачем это нужно:
.pipe()
позволяет организовать преобразования данных в логическую цепочку, улучшая читаемость кодаПример в деле:
def normalize_column(df, col):
df[col] = (df[col] - df[col].mean()) / df[col].std()
return df
df = (pd.DataFrame({'value': [10, 20, 30, 40]})
.pipe(normalize_column, col='value'))
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
📋 Чек-лист перед запуском ML-задачи через `sbatch`
Ваш минимальный набор проверок, чтобы не тратить GPU впустую и не ловить баги на 3-й час обучения:
✅ Подготовка скрипта
➡️ Указано имя задачи через➡️ Настроены логи:➡️ Выбран нужный раздел:
➡️ Указано количество ресурсов:➡️ Прописан тайм-аут:
✅ Среда и окружение:
➡️ Загружается нужный модуль (
➡️ Все зависимости перечислены в➡️ Проверен путь к
✅ Код:
➡️ Прописан фиксированный
➡️ Есть логирование (хотя бы print/logging/wandb/MLflow)
➡️ Код протестирован локально или через
✅ Безопасность и этика:
➡️ Нет утечки чувствительных данных
➡️ Модель прошла базовую проверку на адекватность и непредвзятость
✅ Финальное:
➡️ Скрипт запускается через:➡️ Вы проверяете статус:➡️ При ошибке используете:
✅ Если всё отмечено — можно запускать!
🙅♂️ Если хотя бы одно «нет» — лучше потратить ещё 5 минут, чем 5 часов GPU-времени впустую.
Библиотека дата-сайентиста #буст
Ваш минимальный набор проверок, чтобы не тратить GPU впустую и не ловить баги на 3-й час обучения:
run_job.sh:
#SBATCH --job-name=...
--output=logs/%x_%j.out, --error=logs/%x_%j.err
--partition=ml
(или подходящий) --cpus-per-task=..., --mem=..., --gres=gpu:1
--time=HH:MM:SS
— не забудьте!module load ...
) или активируется conda
requirements.txt
или environment.yaml
train.py
и конфигам — абсолютный или относительный random seed
(в reproducibility мы верим) srun
с малым объемом данных sbatch run_job.sh
squeue -u $USER
scancel <jobid>
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
📺 Что посмотреть: Scaling Long Context and RAG от Google DeepMind
В свежем эпизоде «Release Notes» от Google DeepMind обсуждают масштабирование контекста и работу Retrieval-Augmented Generation (RAG) в длинных контекстных окнах.
💡 Ведущий — Логан Килпатрик, гость — Николай Савинов (DeepMind).
Они делятся инсайтами о:
➡️ проблемах с длинными контекстами,
➡️ подходах к улучшению моделей,
➡️ роли RAG в реальных сценариях,
➡️ и будущем long-context архитектур.
Особенно интересно, если вы работаете с LLM, памятью и retrieval-системами.
▶️ Смотреть: https://clc.to/c8DzRQ
Библиотека дата-сайентиста #буст
В свежем эпизоде «Release Notes» от Google DeepMind обсуждают масштабирование контекста и работу Retrieval-Augmented Generation (RAG) в длинных контекстных окнах.
💡 Ведущий — Логан Килпатрик, гость — Николай Савинов (DeepMind).
Они делятся инсайтами о:
Особенно интересно, если вы работаете с LLM, памятью и retrieval-системами.
▶️ Смотреть: https://clc.to/c8DzRQ
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
Вы пишете диплом, диссертацию или научную публикацию?
Мы собрали топ сервисов с нейросетями, которые реально помогают:
Эти инструменты берут на себя рутину, а вы — сосредотачиваетесь на смысле.
👉 Читайте подборку — и пишите легче: https://proglib.io/sh/T3Zd1EABgY
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
📈 Холивар: NumPy против pandas против PySpark — кто рулит в данных
Дата-сайентисты, делитесь: чем копаете свои миллионы строк?
🐍 NumPy — минимализм и математика
• Основа всех ML-библиотек.
• Векторы, матрицы, broadcasting — строго, быстро, эффективно.
• Если ты знаешь
Но:
• Строгая типизация и отсутствие удобных табличек.
• Хотел сделать фильтр по колонке? Сначала reshape.
•
📊 pandas — король табличек
•
• Гибкость, группировки, фильтрации — словно Excel на стероидах.
• Подходит и для EDA, и для препроцессинга.
Но:
• Большой датасет? Привет, out of memory.
• Интуитивно, но не всегда предсказуемо.
•
🔥 PySpark — big data и кластеры
• Когда данных слишком много для pandas.
• Распределённые вычисления, lazy evaluation, Spark SQL.
• Подходит для продакшена, когда ноутбук уже плачет.
Но:
• Стартуем JVM… подождите немного.
• Написал три строчки — получил лог на 300 строк.
• Не для быстрых экспериментов.
А вы кто: numpy-ниндзя, pandas-мастер или spark-инженер? Или по чуть-чуть от каждого?
Инструкция о том, как оставить комментарий: https://www.tg-me.com/Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение/com.dsproglib/6244
Библиотека дата-сайентиста #междусобойчик
Дата-сайентисты, делитесь: чем копаете свои миллионы строк?
🐍 NumPy — минимализм и математика
• Основа всех ML-библиотек.
• Векторы, матрицы, broadcasting — строго, быстро, эффективно.
• Если ты знаешь
np.dot
и np.linalg
, тебя зовут в глубины ML.Но:
• Строгая типизация и отсутствие удобных табличек.
• Хотел сделать фильтр по колонке? Сначала reshape.
•
IndexError: too many indices
— старая знакомая.📊 pandas — король табличек
•
df.head()
— и ты уже видишь суть.• Гибкость, группировки, фильтрации — словно Excel на стероидах.
• Подходит и для EDA, и для препроцессинга.
Но:
• Большой датасет? Привет, out of memory.
• Интуитивно, но не всегда предсказуемо.
•
SettingWithCopyWarning
— и ты не уверен, изменил ли что-то вообще.🔥 PySpark — big data и кластеры
• Когда данных слишком много для pandas.
• Распределённые вычисления, lazy evaluation, Spark SQL.
• Подходит для продакшена, когда ноутбук уже плачет.
Но:
• Стартуем JVM… подождите немного.
• Написал три строчки — получил лог на 300 строк.
• Не для быстрых экспериментов.
А вы кто: numpy-ниндзя, pandas-мастер или spark-инженер? Или по чуть-чуть от каждого?
Инструкция о том, как оставить комментарий: https://www.tg-me.com/Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение/com.dsproglib/6244
Библиотека дата-сайентиста #междусобойчик
🦾🧠🏋Качаем мозги к лету!
Все качают пресс, а мы — мозги, чтобы получить крутой оффер, уехать на Балии больше не быть онлайн 😎
⚡️ Распродажа: с 10 до 12 мая — скидка 30% на все наши курсы!
➡️ Математика для Data Science 32 990 ₽ 23 090 ₽
➡️ Алгоритмы и структуры данных 39 590 ₽ 27 700 ₽
➡️ Основы программирования на Python 21 990 ₽ 15 390 ₽
Почему мы?
⭐️ Курсы разрабатывались при поддержке топовых преподавателей из Яндекса, Сбера, МГУ
⭐️ У нас есть менторы, которые поддерживают студентов на каждом этапе
⭐️ Мы разбираем задачи с реальных собеседований в крупнейшие компании и готовим к поступлению в ШАД
⭐️ Вход с любого уровня: например, на курсе математики сначала освежаем знания из школьной программы
Save the dates!
Все качают пресс, а мы — мозги, чтобы получить крутой оффер, уехать на Бали
Почему мы?
Save the dates!
Please open Telegram to view this post
VIEW IN TELEGRAM
🆕 Свежие новости из мира AI и Data Science
🔥 Модели, релизы и технологии:
— Mistral Medium 3 — новая модель от Mistral AI для корпоративного сегмента: почти frontier-производительность за меньшие деньги
— Gemini 2.5 Pro — улучшенная версия от Google с прокачанными способностями к программированию
— NVIDIA Parakeet TDT 0.6B — речь в реальном времени: 60 минут аудио за 1 секунду, побеждает всех на Open ASR Leaderboard
— PyTorch и AI-экосистема — как PyTorch стал центральным звеном в инфраструктуре генеративного ИИ
🧠 Статьи, исследования и лучшие практики:
— Embeddings для непрофи — объяснение концепции эмбеддингов простым языком (есть график с собаками 🐶)
— LLM и трансформеры — шпаргалка от Stanford — полный гайд по архитектурам больших языковых моделей
— Обучение LLM на одном примере — новое исследование по обучению reasoning с минимальными данными
👍 Полезное:
— Выбор MLOps-инструментов — как выбирать стек в зависимости от зрелости команды
— CLIP vs SigLIP — подборка для интервью по Computer Vision (Middle/Senior)
Библиотека дата-сайентиста #свежак
🔥 Модели, релизы и технологии:
— Mistral Medium 3 — новая модель от Mistral AI для корпоративного сегмента: почти frontier-производительность за меньшие деньги
— Gemini 2.5 Pro — улучшенная версия от Google с прокачанными способностями к программированию
— NVIDIA Parakeet TDT 0.6B — речь в реальном времени: 60 минут аудио за 1 секунду, побеждает всех на Open ASR Leaderboard
— PyTorch и AI-экосистема — как PyTorch стал центральным звеном в инфраструктуре генеративного ИИ
🧠 Статьи, исследования и лучшие практики:
— Embeddings для непрофи — объяснение концепции эмбеддингов простым языком (есть график с собаками 🐶)
— LLM и трансформеры — шпаргалка от Stanford — полный гайд по архитектурам больших языковых моделей
— Обучение LLM на одном примере — новое исследование по обучению reasoning с минимальными данными
👍 Полезное:
— Выбор MLOps-инструментов — как выбирать стек в зависимости от зрелости команды
— CLIP vs SigLIP — подборка для интервью по Computer Vision (Middle/Senior)
Библиотека дата-сайентиста #свежак
Forwarded from Библиотека задач по Data Science | тесты, код, задания